hhkb
AI

인공지능기초_02_판단 모델과 학습 기법

작성자 : Heehyeon Yoo|2025-12-01
# AI# DiscriminativeModel# SupervisedLearning# UnsupervisedLearning# ReinforcementLearning

1. 개요

인공지능 모델은 크게 판단 모델(Discriminative Model)생성 모델(Generative Model)로 구분된다.

  • 판단 모델: 입력된 데이터가 어떤 클래스(Class)에 속하는지 분류하거나 값을 예측하는 모델이다. (예: "이 사진은 고양이인가?")
  • 작동 원리: 대량의 데이터셋(Dataset)을 통해 데이터의 패턴(Pattern)을 학습하고, 이를 새로운 문제에 적용하여 추론(Inference)한다.

2. 학습 방법(Learning Methods)

2.1. 지도학습(Supervised Learning)

문제(Data)와 정답(Label)을 함께 제공하여 학습시키는 방식이다. 가장 널리 사용되는 방법론이다.

  • 메커니즘: 모델은 데이터와 정답 사이의 상관관계를 분석하여 패턴을 도출한다. 예를 들어, 강아지 사진(문제)과 "강아지"라는 태그(정답)를 함께 학습하면, 모델은 강아지의 시각적 특징(Characteristic)을 스스로 파악한다.
  • 주요 사례:
    • 이상 탐지(Anomaly Detection): 공장 불량품 선별, 금융 이상 거래 탐지(FDS).
    • 이미지/영상 인식(Recognization): 얼굴 인식, 자율주행(객체 식별 및 회피).
    • 예측(Prediction): 주가 예측, 경제 지표 전망.

2.2. 비지도학습(Unsupervised Learning)

정답(Label) 없이 데이터만 제공하여, 데이터 자체의 본질적인 구조나 패턴을 찾아내게 하는 방식이다.

  • 클러스터링(Clustering): 유사한 특징을 가진 데이터끼리 그룹화(Grouping)한다.
  • 주요 사례:
    • 추천 시스템(Recommendation System): 넷플릭스(Netflix), 유튜브(YouTube), 스포티파이(Spotify)의 콘텐츠 추천 알고리즘.
    • 타겟 마케팅(Target Marketing): 구매 이력이나 행동 패턴이 유사한 고객 집단을 군집화하여 맞춤형 광고 제공. (예: 구글 광고 센터의 사용자 프로파일링).

2.3. 강화학습(Reinforcement Learning)

데이터보다는 환경(Environment)과의 상호작용을 통해 학습한다.

  • 구성 요소:
    • 에이전트(Agent): 행동 주체(AI).
    • 환경(Environment): 게임, 바둑판, 도로 등 에이전트가 놓인 상황.
    • 보상(Reward) 및 처벌(Punishment): 에이전트의 행동 결과에 따라 점수를 부여하거나 차감.
  • 메커니즘: 에이전트는 보상을 최대화하는 방향으로 행동 정책(Policy)을 스스로 최적화한다. 스키너의 쥐 실험(Skinner Box)과 유사한 원리이다.
  • 주요 사례:
    • 알파고(AlphaGo): 바둑의 승리라는 보상을 위해 수많은 대국을 시뮬레이션하며 학습.
    • 게임 AI: 벽돌 깨기 게임 등에서 점수 획득을 극대화하는 전략(Strategy) 학습.

3. 요약 및 비교

구분지도학습(Supervised)비지도학습(Unsupervised)강화학습(Reinforcement)
핵심정답(Label) 존재정답 없음, 데이터 자체 구조 파악보상(Reward) 기반 시행착오
목적분류(Classification), 회귀(Regression)군집화(Clustering), 차원 축소최적 행동 결정(Decision Making)
예시스팸 메일 필터, 자율주행고객 세분화, 추천 시스템게임 플레이, 로봇 제어